如果你是第一次阅读本文,你可能会对以下扫盲贴感兴趣:
scrapy官方文档
崔庆才|静觅的《小白进阶之Scrapy第一篇》
scrapy爬取知名技术文章网站(1)
Python3网络爬虫(十二):初识Scrapy之再续火影情缘
你可以还会关心以下的链接:
Python网络爬虫(一)- 入门基础
使用scrapy爬取妹子图(一)
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
还有我们常用网站也有壮士已经研究过了:
资源整理 | 32个Python爬虫项目让你一次吃到撑!
现在很多关于网络爬虫的教程了,旧时王谢堂前燕,如今飞入寻常百姓家。换个角度看,一代比一代的要求更高,以前零几年的时候,会一点python就已经是传说中的人物了,而今只要大学毕业就会接触过python,连爬虫这个东西都已经不算黑科技了。其实如果有了selenium,可以模仿
一个开始
- 引擎:hello, spider,你要处理哪一下网站?
- spider:老大要我处理xx.com
- 引擎:你把第一个需要处理的URL给我吧。
- spider:给你,这是第一个url xxooxx.com
- 引擎:hello,调度器,我这有个request 请求你帮我排列里下。
- 调度器:好的,正在帮你处理,请稍。
- 引擎:Hi,调度器,把你处理好的request 请求给我下。
- 调度器:给你,这是我处理好的request
- 引擎:Hi,下载器材,你按照老大给的“下载中间件”的模板,下载这个request请求的数据。
- 下载器:好的!在下载中……,好了,给你这是下载好的东西。
- 引擎:Hi,spider,这是下载好的东西。
- spider:好的,我按照老大给的模板整理好,出个“Item”表。
- spider:hello, 引擎,我这有新任务。。。。。。。。。。。。。。